Hypothesis Testing (Z-Test, T-Test, Chi-Square Test)

Machine Learning - পাইথন ডেটা সায়েন্স (Python Data Science) - Statistics for Data Science
645

Hypothesis Testing হল একটি পরিসংখ্যানিক প্রক্রিয়া যা আমরা কোনো একটি দাবি বা অনুমান পরীক্ষা করার জন্য ব্যবহার করি। উদাহরণস্বরূপ, "মনে করি একটি কোম্পানির গড় বিক্রয় ৫০,০০০ টাকা," এবং আমরা যাচাই করতে চাই যে এই দাবি সত্য কি না। এই ধরনের অনুমান বা দাবি পরীক্ষা করার প্রক্রিয়াকে hypothesis testing বলা হয়।

Hypothesis Testing সাধারণত তিনটি প্রধান ধরণের পরীক্ষার মাধ্যমে করা হয়:

  • Z-Test
  • T-Test
  • Chi-Square Test

প্রত্যেকটি টেস্টের ব্যবহার, প্রক্রিয়া এবং প্রয়োগের ক্ষেত্র আলাদা।


১. Z-Test

Z-Test হল একটি পরিসংখ্যানিক টেস্ট যা সাধারণত large sample sizes (নমুনার আকার ৩০ বা তার বেশি) এর জন্য ব্যবহৃত হয়, যেখানে জনসংখ্যার (population) ভ্যারিয়েন্স (variance) জানা থাকে বা অনুমান করা যায়।

Z-Test এর প্রকারভেদ:

  • One-Sample Z-Test: একটি নমুনার গড় (mean) জনসংখ্যার গড়ের (population mean) সাথে তুলনা করা হয়।
  • Two-Sample Z-Test: দুটি আলাদা নমুনার গড়ের তুলনা করা হয়।
  • Z-Test for Proportions: দুটি প্রোপোরশনের তুলনা করা হয়।

Z-Test এর ধাপসমূহ:

  1. Null Hypothesis (H₀): কোন পরিবর্তন বা পার্থক্য নেই।
  2. Alternative Hypothesis (H₁): একটি পরিবর্তন বা পার্থক্য রয়েছে।
  3. Significance Level (α): সাধারণত ০.০৫ বা ৫%।
  4. Z-Score হিসাব করা:

    Z=Xμσ/nZ = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}}

    যেখানে, X\overline{X} = sample mean, μ\mu = population mean, σ\sigma = population standard deviation, nn = sample size।

  5. Critical value বা p-value চেক করা: Z-টেস্টের জন্য critical value বা p-value চেক করে আমরা সিদ্ধান্ত নেব যে H₀ কে বাতিল করা হবে কি না।

উদাহরণ:

ধরা যাক, আপনি একটি স্কুলের ছাত্রদের গড় উচ্চতা পরীক্ষা করতে চান, যেখানে জনসংখ্যার গড় উচ্চতা ১৭৫ সেমি। একটি স্যাম্পল থেকে গড় উচ্চতা ১৭৭ সেমি পাওয়া গেছে এবং স্যাম্পলের আকার ১০০। আপনি কি বলতে পারবেন যে ছাত্রদের গড় উচ্চতা ১৭৫ সেমি থেকে আলাদা?


২. T-Test

T-Test হল একটি পরিসংখ্যানিক টেস্ট যা সাধারণত ছোট নমুনা আকার (n < 30) এবং জনসংখ্যার ভ্যারিয়েন্স অজানা থাকলে ব্যবহৃত হয়। এটি One-Sample T-Test, Two-Sample T-Test, এবং Paired T-Test এ বিভক্ত।

T-Test এর প্রকারভেদ:

  • One-Sample T-Test: একটি নমুনার গড়ের তুলনা করা হয় জনসংখ্যার গড়ের সাথে।
  • Two-Sample T-Test: দুটি আলাদা গ্রুপের গড়ের তুলনা করা হয়।
  • Paired T-Test: একই গ্রুপের মধ্যে দুটি ভিন্ন পরিমাপের তুলনা করা হয় (যেমন, আগে এবং পরে পরীক্ষার ফলাফল)।

T-Test এর ধাপসমূহ:

  1. Null Hypothesis (H₀): কোনো পার্থক্য নেই।
  2. Alternative Hypothesis (H₁): পার্থক্য রয়েছে।
  3. Significance Level (α): সাধারণত ০.০৫।
  4. T-Score হিসাব করা:

    T=XμS/nT = \frac{\overline{X} - \mu}{S / \sqrt{n}}

    যেখানে, X\overline{X} = sample mean, μ\mu = population mean, SS = sample standard deviation, nn = sample size।

  5. Critical value বা p-value চেক করা: T-টেস্টের জন্য critical value বা p-value চেক করা হয়।

উদাহরণ:

ধরা যাক, একটি গবেষণা প্রতিষ্ঠানে গবেষকরা দাবি করেছেন যে, একটি বিশেষ চিকিৎসার প্রভাব রোগীদের গড় সুস্থতার সময়কে ১০ দিনের মধ্যে কমিয়ে আনবে। একটি স্যাম্পল নিয়ে পরীক্ষা করা হয়েছে, যেখানে গড় সুস্থতার সময় ৮ দিন পাওয়া গেছে। আপনি কি বলতে পারবেন যে ১০ দিনের তুলনায় গড় সুস্থতার সময় ৮ দিন কমেছে?


৩. Chi-Square Test

Chi-Square Test সাধারণত ক্যাটেগরিকাল ডেটা বিশ্লেষণের জন্য ব্যবহৃত হয়, যেখানে দুটি বা তার বেশি ক্যাটেগরি ডেটার মধ্যে সম্পর্ক পরীক্ষা করা হয়। এটি প্রধানত Goodness of Fit Test এবং Test of Independence হিসেবে ব্যবহৃত হয়।

Chi-Square Test এর প্রকারভেদ:

  • Goodness of Fit Test: এই টেস্টটি পরীক্ষা করে যে, একটি পর্যবেক্ষণকৃত ডিস্ট্রিবিউশন (observed distribution) একটি প্রত্যাশিত ডিস্ট্রিবিউশনের সাথে মেলে কি না।
  • Test of Independence: এই টেস্টটি পরীক্ষা করে দুটি ক্যাটেগরিকাল ভ্যারিয়েবল একে অপরের সাথে স্বাধীন কি না।

Chi-Square Test এর ধাপসমূহ:

  1. Null Hypothesis (H₀): ভ্যারিয়েবল দুটি স্বাধীন (independent)।
  2. Alternative Hypothesis (H₁): ভ্যারিয়েবল দুটি সম্পর্কিত (dependent)।
  3. Chi-Square Statistic হিসাব করা:

    χ2=(OE)2E\chi^2 = \sum \frac{(O - E)^2}{E}

    যেখানে, OO = observed frequency, EE = expected frequency।

  4. Critical value বা p-value চেক করা: Chi-square টেস্টের জন্য critical value বা p-value চেক করে সিদ্ধান্ত নেওয়া হয়।

উদাহরণ:

ধরা যাক, একটি গবেষণা প্রতিষ্ঠানে শিক্ষার্থীদের পছন্দের শিক্ষা বিভাগের মধ্যে সম্পর্ক পরীক্ষা করতে চান। আপনি তিনটি বিভাগ (Science, Arts, Commerce) এর পছন্দের পরিসংখ্যান সংগ্রহ করেছেন এবং যাচাই করতে চান যে শিক্ষার্থীদের বিভাগ নির্বাচন স্বাধীন, নাকি তাদের পছন্দের মধ্যে কিছু সম্পর্ক রয়েছে।


সারাংশ

  • Z-Test সাধারণত বড় নমুনার জন্য এবং জনসংখ্যার ভ্যারিয়েন্স জানা থাকলে ব্যবহার করা হয়।
  • T-Test ছোট নমুনার জন্য ব্যবহৃত হয় এবং জনসংখ্যার ভ্যারিয়েন্স জানা না থাকলে এটি ব্যবহার করা হয়।
  • Chi-Square Test ক্যাটেগরিকাল ডেটা বিশ্লেষণ করার জন্য ব্যবহৃত হয় এবং দুটি বা তার বেশি ভ্যারিয়েবলের মধ্যে সম্পর্ক পরীক্ষা করতে সাহায্য করে।

এই পরীক্ষাগুলির মাধ্যমে আপনি বিভিন্ন ধরনের ডেটার উপর অনুমান বা দাবী যাচাই করতে পারেন এবং ডেটা বিশ্লেষণ বা মডেলিংয়ের জন্য গুরুত্বপূর্ণ সিদ্ধান্ত নিতে পারেন।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...